Najlepsze kodowania
Dla każdego kodowania przprowadzono 5-krotną walidację krzyżową. Walidację potwórzono 4 razy (4 z powodu ograniczeń obliczeniowych). Obliczenia zostały przeprowadzone uwzględniając dwie strategie uczenia: tylko hexamery w zbiorze uczącycm (etykiety hexamers na rysunkach i w tabelach) oraz sekwencje o dowolnej długości w zbiorze uczącym (etykieta all-mers na rysunkach i w tabelach).
Heksamery

Na rysunku powyżej przedstawiono średnie AUC dla klasyfikatorów uczonych dla heksamerów (czerwone kropki) oraz minimalną i maksymalną wartość AUC. Wybrano 10% najlepszych kodowań.
Kodowanie 32.
|
|
Group
|
|
1
|
A, G
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, P, S, T
|
|
4
|
C, I, L, M, F, V
|
|
5
|
W, Y
|
Kodowanie 41.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, K
|
|
3
|
N, Q, E, H, P, T, Y
|
|
4
|
D, S
|
|
5
|
I, L, M, F, W, V
|
Kodowanie 44.
|
|
Group
|
|
1
|
A, C, G, S
|
|
2
|
R, K
|
|
3
|
N, Q, H, P, T
|
|
4
|
D, E
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 53.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, K
|
|
3
|
N, Q, H, P, S, T
|
|
4
|
D, E
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 77.
|
|
Group
|
|
1
|
A, C
|
|
2
|
R, K
|
|
3
|
N, Q, E, H, P, T
|
|
4
|
D, G, S
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 79.
|
|
Group
|
|
1
|
A, G
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, P, S, T
|
|
4
|
C, I, L, M, F, V
|
|
5
|
W, Y
|
Kodowanie 86.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, K
|
|
3
|
N, Q, E, H, P, T, Y
|
|
4
|
D, S
|
|
5
|
I, L, M, F, W, V
|
Kodowanie 89.
|
|
Group
|
|
1
|
A, C, G, S
|
|
2
|
R, K
|
|
3
|
N, Q, H, P, T
|
|
4
|
D, E
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 90.
|
|
Group
|
|
1
|
A, G, P, S, T
|
|
2
|
R, D, E, K
|
|
3
|
N, Q
|
|
4
|
C, H, I, L, M, V
|
|
5
|
F, W, Y
|
Kodowanie 91.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, D, E, K
|
|
3
|
N, Q, H, P, S, T
|
|
4
|
I, L, M, V
|
|
5
|
F, W, Y
|
Kodowanie 92.
|
|
Group
|
|
1
|
A, C, G, P, S, T
|
|
2
|
R, D, E, K
|
|
3
|
N, Q, H
|
|
4
|
I, L, M, V
|
|
5
|
F, W, Y
|
Wszystkie najlepsze kodowania zawierają 5 grup.
Sekwencje o dowolnej długości

Na rysunku powyżej przedstawiono średnie AUC dla klasyfikatorów uczonych dla heksamerów (czerwone kropki) oraz minimalną i maksymalną wartość AUC. Wybrano 10% najlepszych kodowań.
Kodowanie 32.
|
|
Group
|
|
1
|
A, N, D, C, Q, E, G, P, S, T
|
|
2
|
R, H, K
|
|
3
|
I, L, M, F, W, Y, V
|
Kodowanie 41.
|
|
Group
|
|
1
|
A, N, D, C, Q, E, G, H, S, T
|
|
2
|
R, K
|
|
3
|
I, F, W, Y
|
|
4
|
L, M, P, V
|
Kodowanie 44.
|
|
Group
|
|
1
|
A, C, G, H, P
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, S, T
|
|
4
|
I, L, M, F, W, Y, V
|
Kodowanie 53.
|
|
Group
|
|
1
|
A, N, D, C, Q, E, G, H, S, T
|
|
2
|
R, K
|
|
3
|
I, F, W, Y
|
|
4
|
L, M, P, V
|
Kodowanie 77.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, S, T
|
|
4
|
I, F, W, Y
|
|
5
|
L, M, P, V
|
Kodowanie 79.
|
|
Group
|
|
1
|
A, G
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, P, S, T
|
|
4
|
C, I, L, M, F, V
|
|
5
|
W, Y
|
Kodowanie 86.
|
|
Group
|
|
1
|
A, C, G
|
|
2
|
R, K
|
|
3
|
N, Q, H, P, S, T
|
|
4
|
D, E
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 89.
|
|
Group
|
|
1
|
A, C, G, S
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, T
|
|
4
|
I, F, W, Y
|
|
5
|
L, M, P, V
|
Kodowanie 90.
|
|
Group
|
|
1
|
A, C
|
|
2
|
R, K
|
|
3
|
N, Q, E, H, P, T
|
|
4
|
D, G, S
|
|
5
|
I, L, M, F, W, Y, V
|
Kodowanie 91.
|
|
Group
|
|
1
|
A, G
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, H, P, S, T
|
|
4
|
C, I, L, M, F, V
|
|
5
|
W, Y
|
Kodowanie 92.
|
|
Group
|
|
1
|
A, G, P
|
|
2
|
R, K
|
|
3
|
N, D, Q, E, S, T
|
|
4
|
C, H
|
|
5
|
I, L, M, F, W, Y, V
|
Pond połowa najlepszych kodowań zawiera 5 grup, pozostałe mniej.
Porównanie najlepszych kodowań

Rysunek powyżej przedstawia różnice w grupowaniu aminokwasów dla najlepszych grupowań. Wysokość słupka odpowiada częstotliwości z jaką aminokwas \(a_1\) był zaliczany do tej samej grupy, co aminokwas \(a_2\). Grupa “background” oznacza wszystkie możliwe kodowania.

Ten sam wykres, co powyżej. Z uwagi na to, że arginina i lizyna występują razem bardzo często utrudniając obserwację zmienności dla innych par aminokwasów, wszystkie wykresy przycięto do wartości częstości 0.40.